在 cooking_gym 裡面,任務的完成不會只由單一個動作完成,而是由好幾個動作建構,對的順序而構成任務達成(送出生菜沙拉)
可以看到,在整個過程裡面,生菜沙拉的過程需要先把番切與生菜切開,再用一個盤子去拼裝,最後送餐,整個需要透過高階合作(high-level coordination)與低階導航(actions),兩種行為構成。過去的方法使用去中心化的方式,或者溝通的方式,構成合作行為,但該研究方法是作到無須溝通的去中心化,用心智方式解讀其他智能體的行為。
但每一次的任務產生,不一定會全部完成,所以我們以節點的關係,去量化整個行為完成度。例如從蕃茄→切蕃茄→擺放→送餐,可能整個行為在蕃茄→擺放的過程就失敗,則完成度為33%。
該論文研究主要有三個貢獻。
其實關於1的智能體拓展,最多只到3的agent,所以會有點懷疑,該方法的拓展性… 如果假設到100,基底的統計模型會不會很難找到最佳點,這是我目前看論文,還有點困惑的點。
Too many cooks: Bayesian inference for coordinating
multi-agent collaboration